8 de junio de 2017

P-hacking: una definición

Ilustración de P-hacking

http://…


Este trabajo ilustra lo sencillo que resulta obtener resultados significativos en estudios estadísticos, exista o no efecto subyacente.

Dos experimentos:


Individuos se sienten más mayores tras escuchar una canción infantil.





Individuos SON más jóvenes tras escuchar "When I'm sixty four" (The Beatles).

¿Cómo se puede haber llegado a estas conclusiones (sobre todo la segunda)?

Grados de libertad del investigador

En general existen innumerables factores de análisis que se eligen de forma arbitraria. Estos factores son lo que los autores llaman grados de libertad del investigador.

Por cada grado de libertad que tenemos podemos hacer un análisis distinto y su combinación multiplica el número de análisis que podemos hacer.

Grados de libertad:

  • Distintas variables respuesta (incidencia, prevalencia, supervivencia, mortalidad, …).
  • Distintas covariables y sus combinaciones (2^p posibles modelos).
  • Selección de parte de la muestra (eliminación de outliers, valores perdidos, …).

Otro grado de libertad ampliamente utilizado es la posibilidad de modular el tamaño muestral del estudio a conveniencia de los resultados buscados




El uso de los grados de libertad es una herramienta de primer orden para encontrar (las haya o no) asociaciones en los datos.

Según Wikipedia uno de los libros con mayor éxito de la historia de la estadística (1.5 millones de copias vendidas sólo en su edición en ingles).

Un ejemplo con datos simulados

15000 bancos de datos, respuesta independiente de la covariable.

Grados de libertad:

  • 2 variables respuesta.
  • Incremento del tamaño muestral si no significativo.
  • Uso de covariable adicional y su interacción con la original.
  • Considerar una variable categórica (3 grupos) y hacer análisis 2 a 2 de los grupos.

El uso de grados de libertad en los dos estudios anteriores es un ejemplo de P-hacking que conduce a encontrar relaciones significativos cuando no existen realmente.

P-hacking y picos de fertilidad

"Building on evidence that men are sexually attracted to women wearing or surrounded by red, we tested whether women show a behavioral tendency toward wearing reddish clothing when at peak fertility. … Women at high conception risk were more than three times more likely to wear a red or pink shirt than were women at low conception risk. … Our results thus suggest that red and pink adornment in women is reliably associated with fertility and that female ovulation, long assumed to be hidden, is associated with a salient visual cue."

P-hacking y picos de fertilidad (II)

El artículo en breve generó controversia por los "grados de libertad" del estudio:

  • 9 colores (no sólo rojo o rosa) -> múltiples posibilidades y muchas combinaciones.
  • Definición de pico fertil: entre 6 y 14 días desde el inicio de la menstruación.
  • Otras prendas, no sólo camisas.

Bastantes otros resultados podrían dar lugar a "bonitas historias": ¿Mujeres en periodo fertil evitan colores oscuros? ¿Mujeres en periodo fertil usan más tangas?

Estos resultados serían seguramente espúreos pero podrían ser publicados con facilidad.

P-hacking y fMRI

Carp (2012) enumera los factores que intervienen en análisis estadísticos de fMRI.

Carp identifica 10 factores (analysis steps) en la literatura con entre 2 y 4 posibles elecciones, sumando un total de 6912 combinaciones posibles.

90.3% de los voxels dieron resultados significativos para alguna de las 6912 combinaciones de los parámetros evaluadas.

Básicamente, cualquier voxel que quisiéramos podría ser catalogado como significativo.

P-hacking y + fMRI